home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9610 / 000094_owner-urn-ietf _Thu Oct 24 11:18:31 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  6KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id LAA13819 for urn-ietf-out; Thu, 24 Oct 1996 11:18:31 -0400
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id LAA13812 for <urn-ietf@services.bunyip.com>; Thu, 24 Oct 1996 11:18:20 -0400
  3. Received: from acl.lanl.gov by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA26156  (mail destined for urn-ietf@services.bunyip.com); Thu, 24 Oct 96 11:18:18 -0400
  5. Received: from legiron.acl.lanl.gov (legiron.acl.lanl.gov [128.165.147.188]) by acl.lanl.gov (8.7.3/8.7.3) with SMTP id JAA05603; Thu, 24 Oct 1996 09:18:12 -0600 (MDT)
  6. Message-Id: <2.2.32.19961024152549.006b6fac@acl.lanl.gov>
  7. X-Sender: rdaniel@acl.lanl.gov
  8. X-Mailer: Windows Eudora Pro Version 2.2 (32)
  9. Mime-Version: 1.0
  10. Content-Type: text/plain; charset="us-ascii"
  11. Date: Thu, 24 Oct 1996 09:25:49 -0600
  12. To: Terry Allen <tallen@fsc.fujitsu.com>, urn-ietf@bunyip.com
  13. From: Ron Daniel <rdaniel@acl.lanl.gov>
  14. Subject: Re: [URN] Unicode for NSS query
  15. Sender: owner-urn-ietf@services.bunyip.com
  16. Precedence: bulk
  17. Reply-To: Ron Daniel <rdaniel@acl.lanl.gov>
  18. Errors-To: owner-urn-ietf@bunyip.com
  19.  
  20. Thus spoke Terry Allen (at least at 03:52 PM 10/23/96 -0700)
  21.  
  22. [on the subject of UNICODE, aka 10646, for URNs]
  23.  
  24. > - why care?  the NSS is supposed to be opaque
  25.  
  26. Which means? I think it means we can't go around inferring
  27. structure in arbitrary namespaces. Opaque does not mean
  28. that we have to take whatever comes. There can be particular
  29. requirements on the characters allowed.
  30.  
  31. I think this WG should make
  32. an explicit decision on trying to go to UNICODE rather than
  33. just defaulting to ASCII. The reasons for doing so:
  34.   1) The IAB workshop tells us to try to do so.
  35.   2) Not all the namespaces in the world use the Latin alphabet
  36.      without accents.
  37.   3) Isn't it time we start getting away from the US-ASCII assumption?
  38.  
  39. It may be that the group decides not to do UNICODE because of technical
  40. objections. That would be fine with me, I just want the decision to be
  41. explicit.
  42.  
  43.  
  44. > - does this imply that a) NSSs should be formed originally
  45. >   in Unicode, or that b) NSSs in other coded character sets
  46. >   must be translated/transliterated into Unicode in forming
  47. >   URNs, or c) something else?
  48.  
  49. What I assume happens is that namespaces are defined in terms of
  50. glyphs, not coded character sets. Browsers have the job of taking
  51. some coded representation of the glyph and translating it (if necessary)
  52. to a 10646 coded version of the glyph. Then they do UTF-8 and %encoding
  53. before sending it on the wire to a resolver.
  54.  
  55. (Note that the NAPTR resolution scheme is probably going to find
  56. it impossible to get people to resolvers if that decision has to be made
  57. on non-ASCII characters in the URN. Since NAPTR is intended for
  58. Experimental rather than standards track this may be OK. I will take a
  59. look at what can be done to deal with UNICODE in regexps.)
  60.  
  61.  
  62. >As an example, suppose that I have an existing name space,
  63. >well ordered in every respect, in ISO 8859-6 (Latin/Arabic).
  64.  
  65. Is this assumption of characterset appropriate? Is it not more
  66. likely that the namespace will say "names are formed from the
  67. set of glyphs [x-y]" (where x and y are denoting arbitrary glyphs, not
  68. the Latin letters x and y) leaving the problem of how to code those
  69. things as bits up to someone else?
  70.  
  71. >I want this name space to be used for URNs, and (supposing
  72. >that the coded character set is not an obstacle at this 
  73. >point) get it registered.  As the upper half of 8859-6 is
  74. >not a subset of Unicode, per the present syntax draft,
  75.  
  76. Do you mean that:
  77.   a) The glyphs in the upper half of 8859-6 are not in UNICODE
  78.   b) The glyphs are there but the bit patterns of their coded representation
  79.      differ
  80.   c) (B) + non-unique mappings from 8859-6 to same glyph in UNICODE
  81.  
  82. >I can't use it directly in an URN (although doing so would
  83. >pose no problem I can think of, supposing that it is a rule
  84. >of the name space that its names are in 8859-6).
  85. >
  86. >When I translate that 8859-6 name into Unicode I have more
  87. >than one possible outcome (depending on whether I keep it
  88. >simple, using 0621--064A or use Unicode code points that
  89. >include diacritical marks or use Unicode code points that
  90. >indicate glyph variants of a letter, such as 06AA, "Arabic
  91. >Letter Swash Kaf," which is lexically the same as 0643,
  92. >"Arabic Letter Kaf`" or specify some ligatures).
  93.  
  94. Right. We have been assuming that the user enters a URN into
  95. a browser using their local language/script/... and the browser
  96. has the job of making it into UNICODE/UTF-8/%encoded.
  97.  
  98. Are there guidelines already in place on how, when a user wants
  99. an "A" plus "grave" (or whatever), that is to be encoded? Is it
  100. reasonable for us to cite such guidelines as the way namespaces
  101. should be encoded? (Also, is it SHOULD be encoded or MUST be
  102. encoded).
  103.  
  104. >  Say
  105. >I can have outcomes A, B, and C, all of them legitimate
  106. >representations of my 8859-6 name in Unicode.  Are 
  107. >urn:mynamespace:A, urn:mynamespace:B, and urn:mynamespace:C
  108. >equivalent?
  109.  
  110. I think that we can't mandate that they be lexically equivalent.
  111. That requires FAR too much knowledge on the part of all URN software.
  112. It may be that a resolver can be made smart enough that, when
  113. dealing with a particular language and alphabet, it can recognize
  114. "A with grave" as equivalent to "A" and "grave". I think that is outside
  115. the bounds of what we standardize.
  116.  
  117. The place to attack this problem of A, B, and C all being legitimate
  118. UNICODE representations of some sequence of glyphs is when the
  119. glyphs are first translated to UNICODE. If there are recommendations
  120. on preferred encodings, we should cite those. If not, then we should
  121. decide on which is more important - UNICODE's capabilities or
  122. unambiguous encoding.
  123.  
  124. Ron Daniel Jr.                       email: rdaniel@lanl.gov
  125. Advanced Computing Lab               voice: +1 505 665 0597
  126. MS B287                                fax: +1 505 665 4939
  127. Los Alamos National Laboratory        http://www.acl.lanl.gov/~rdaniel/
  128. Los Alamos, NM, USA  87545    obscure_term: "hyponym"
  129.